让我们来看看情景记忆架构的各个组成部分:
嵌入和比较器网络:这两个网络的目的是在给定另一个输入观察的情况下预测特定观察的可达性。具体而言,两个网络是基于一个称为R-Network的架构,这是一个由逻辑回归的损失训练的分类器:如果在k步内两个观测从一个到另外一个的可达的概率比较低,那么它的预测值接近于0,反之,当概率是很高时,其值接近于1。
情景记忆缓冲器:情景记忆缓冲器存储当前情景中过去的观察结果的嵌入,以便根据特定的观察结果进行评估。
奖励估计模块:该模块的目的是检查内存中是否有可达到的观察结果,如果没有,则进行检查。从本质上说,通过从当前状态只采取一些行动,这个模块的检查确保在内存中没有观察可以达到,因此鼓励好奇心。